На страницу второго семестра

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART.

База данных SMART содержит проверенные экспертами множественные выравнивания гомологичных белковых доменов. Выравнивания согласованы с данными о пространственной структуре. Эти выравнивания будут использоваться как эталонные при оценке качества работы программы выравнивания (CLUSTALW).
  1. Получила множественное выравнивание из базы данных SMART. К сожалению, для моего белкого домена нашлось лишь три гомологичных ему (cyns_aquae, cyns_synp7, cyns_ecoli, cyns_arath.), и длина выравнивания была 74 аминокислотных остатка (поэтому я не стала сокращать длину выравнивания). Надо также добавить, что выравнивание было довольно хорошим (скорее всего имело большой вес), что скорее всего отразится на дальнейших результатах.

    Эталонное выравнивание из SMART

                                                                                                                                                                                           
                                      *       1 0         *       2 0         *       3 0         *       4 0         *       5 0         *       6 0         *       7 0                  
    C Y N S _ E C O L I   :   C I D D R I P T D P T M Y R F Y E M L Q V Y G T T L K A L V H E K F G D G I I S A I N F K L D V K K V A D P E G G E R A V I T L D G K Y L P T K P F   :   7 4
    C Y N S _ S Y N P 7   :   C L E P V I P T D P L I Y R F Y E I M Q V Y G L P L K D V I Q E K F G D G I M S A I D F T L D V D K V E D P - K G D R V K V T M C G K F L A Y K K W   :   7 3
    C Y N S _ A Q U A E   :   P Q Q P V P P T D P F V Y R L Y E V V I L Y G P A L K D V A H E M F G D G I M S A I D M S V E L E K V E Q E - G A E R M V L T F N G K W L K Y R K F   :   7 3
    C Y N S _ A R A T H   :   S Y D P N L I Q E P T I Y R L N E A V M H F G E S I K E I I N E D F G D G I M S A I D F Y C S V D K I K G V D G N N R V V V T L D G K Y L S H S E Q   :   7 4
                                    p     p t d P   6 Y R   y E   6     5 G     6 K   6     E   F G D G I 6 S A I 1 f       6   K 6         g     R   v 6 T     G K 5 L                    


  2. Получила с помощью SRS полные последовательности белков в формате Fasta. Их вы можете увидеть в файле full_seq.fasta
  3. С помощью программы ClustalW получила множественное выравнивание последовательностей из full_seq.fasta. Для того, чтобы сравнить полученные выравнивания я нашла и покрасила выбранный мной участок выравнивания:

    Выравнивание, полученное в Clustalw

                                                                                                                                                                                                     
                                                *                 2 0                   *                 4 0                   *                 6 0                   *                            
    C Y N S _ E C O L I   :   M I Q S Q I N R N I R L D L A D A I L L S K A K K D L S F A E I A D G T G L A E A F V T A A L L G Q Q A L P A D A A R L V G A K L D L D E D S I L L L Q M I   :     7 8
    C Y N S _ S Y N P 7   :   - - - - - - - - - M T S A I T E Q L L K A K K A K G I T F T E L E Q L L G R D E V W I A S V F Y R Q S T A S P E E A E K L L T A L G L D L A L A D E L T T P   :     6 9
    C Y N S _ A Q U A E   :   - - - - - - M R S D I G R L S K Y L I E R K K N L G L T W E D V S R K L G K S P V Y C A M L F Y G Y A Q A D D E E V K A V A E L L N L E E K E L A E L K D A   :     7 2
    C Y N S _ A R A T H   :   - - - - - M E A A K K Q S V T N Q L L A V K S A S G K T F S Q L A A E T G L T N V Y V A Q L L R R Q A Q L K P D T V P K L K E A L P A L T D E L I G D M M S   :     7 3
                                                        6       6 6     K       g   3 5     6         G       v 5   a           q                     6       L   l               l                  
                                                                                                                                                                                                     
                              8 0                   *               1 0 0                   *               1 2 0                   *               1 4 0                   *                        
    C Y N S _ E C O L I   :   P L R G C I D D R I P T D P T M Y R F Y E M L Q V Y G T T L K A L V H E K F G D G I I S A I N F K L D V K K V A D P E G G E R A V I T L D G K Y L P T K P F   :   1 5 6
    C Y N S _ S Y N P 7   :   P V K G C L E P V I P T D P L I Y R F Y E I M Q V Y G L P L K D V I Q E K F G D G I M S A I D F T L D V D K V E D P K G - D R V K V T M C G K F L A Y K K W   :   1 4 6
    C Y N S _ A Q U A E   :   P Y R E P Q Q P V P P T D P F V Y R L Y E V V I L Y G P A L K D V A H E M F G D G I M S A I D M S V E L E K V E Q E G A - E R M V L T F N G K W L K Y R K F   :   1 4 9
    C Y N S _ A R A T H   :   P P W R S Y D P N L I Q E P T I Y R L N E A V M H F G E S I K E I I N E D F G D G I M S A I D F Y C S V D K I K G V D G N N R V V V T L D G K Y L S H S E Q   :   1 5 1
                              P             p     p t d P   6 Y R   y E   6     5 G     6 K   6     E   F G D G I 6 S A I 1 f       6   K 6         g     R   v 6 T     G K 5 L                      
                                                                           
                                1 6 0                   *                  
    C Y N S _ E C O L I   :   - - - - - - - - - - - - - - - - -   :       -
    C Y N S _ S Y N P 7   :   - - - - - - - - - - - - - - - - -   :       -
    C Y N S _ A Q U A E   :   - - - - - - - - - - - - - - - - -   :       -
    C Y N S _ A R A T H   :   R T E N M V S R L N L K G G T S E   :   1 6 8
                                                                           

Результаты:

  1. В выравнивании из SMART 74 колонки.
  2. По результатам ClustalW 71 колонка совпадает, а три не совпадают, но, надо сказать, что скорее всего вес этих участков выравниваний одинаков(заметим, что различие в этих трех колонках не существенно, так как число гэпов одинаково и совпадение тоже, то есть это два варианта с одинаковым весом).
  3. Таким образом, формально получаем процент сходства, равный 96%.

Выводы:

В данном случае выравнивание, полученное в Сlustalw очень сильно совпадает с проверенными данными базы SMART. Различие в постановке гепов, но это не может служить показанием правильности или неправильности выравнивания, так как в данном случае имелась возможность расположить гепы в обеих позициях, и, в каком-то смысле, выбор между ними был непринципиальным. Таким образом, получается, что в базе данных была выбрана одна позиция, а программа ClustalW выбрала другую. (В SMART я получила данные лишь по 4 белкам, включая мой собственный (то есть не было выбора), при этом эти белки все начинаются на CYNS,таким образом предопределяя некое сходство, а их выравнивание имело большой вес, так как много столбцов с полностью совпадающими аминокислотами.)

Дополнительное зададание:

В этом задании необходимо было получить матрицы попарного совпадения последовательностей. В первом случае не было выбора (так как выравнивание из SMART было короткое, поэтому мы взяли его полностью). Во втором случае, я выбрала всё выравнивание, а не только мой участок (окрашенный розовым), потому что оно было относительно коротким, и кроме того хотелось сравнить эти выравнивания (а как я увидела в предыдущем задании выбранный участок выравнивания совпадает очень сильно)
  1. Выравнивание из SMART.
                        CYNS_ECOLI_83-156  CYNS_SYNP7_74-146  CYNS_AQUAE_77-149  CYNS_ARATH_78-151 
    
     CYNS_ECOLI_83-156                100%                                                         
    
     CYNS_SYNP7_74-146                 56%               100%                                      
    
     CYNS_AQUAE_77-149                 44%                50%               100%                   
    
     CYNS_ARATH_78-151                 40%                41%                37%               100%
    
    
  2. Выравнивание, полученное в Clustalw.
                   CYNS_ECOLI   CYNS_SYNP7   CYNS_AQUAE   CYNS_ARATH 
    
      CYNS_ECOLI          100%                                       
    
      CYNS_SYNP7           36%         100%                          
    
      CYNS_AQUAE           28%          37%         100%             
    
      CYNS_ARATH           26%          31%          26%         100%
    
    
    

    Результат:

    Проценты попарного совпадения получились довольно большими, как в первом, так и во втором случае. В SMARTE такой результат, по-видимому, и должен быть, так как это проверенные выравнивания доменов, не удивительно, что и совпадение велико. В Clustalw высокие результаты объясняются тем, что данные белки очень близки по свойствам (а соответственно и по аминокислотной последовательности), а так же тем, что большая часть совпала с выравниванием SMART (причины этого объяснялись в предыдущей части задания).


    ©Babskaya Evgeniya, 2005